In-Context Edit
https://gyazo.com/39ff5c271a0c1d5f48056064e89c81bd
MM Attentionの出力投影層に複数のLoRAアダプタを並列に配置
各専門家は異なる編集パターン(スタイル変換、除去、補完など)にフォーカス
入力トークン(視覚トークン+テキスト埋め込み)を受け取り、どのLoRA専門家を用いるかを分類器が予測する
サンプリングの初期で一度VLMに渡しプロンプトとの適合度を測る
スコアが高いものを選び次へ進む
モデルのダウンロード
🚨ComfyUIではMoEモデルを扱えないので、ノーマルverのLoRAを使う
🧬ComfyUIで正しく動作させるために必要(?)
https://gyazo.com/c10fa8180b1187bae8fa9fbf90ed2a57
🟪Flux Fillモデル(これはGGUF)とnormal-loraを読み込み
🟫In-context系なので、参照画像と編集後画像が横並べで出力されるため、右半分だけクロップする
🚨シードにかなり結果が左右されるため、上手く編集ができなくても、シードガチャすると上手くいくことが多い
本来これをVLMで自動化しているのだけど、ComfyUIには実装されていないので(ゴリ押しすればできるけど)、手動でガチャる
ICEdit用のカスタムノードを使わないでやる
https://gyazo.com/30b308d00efff3e49d3563cc3030e8c9
🟩InContextEditInstructionノードは、入力テキストの前に、A diptych with two side-by-side images of the same scene.On the right, the scene is the same as on the left butを追加しているだけ こちらではimageは画像を複製して横並びに
マスクは、白と黒の矩形を作って横並びにし、それをComvert image to maskノードでマスクに変換している
関連